主要漢字形聲字發音規則探勘與視覺化 (Primary Chinese Semantic-Phonetic Compounds Pronunciation Rules Mining and Visualization) [In Chinese]

نویسندگان

  • Chien-Hui Hsu
  • Meng-Feng Tsai
  • Chia-Hui Chang
  • Hsiang-Mei Liao
  • Shu-Ping Li
  • Denise H. Wu
چکیده

The demand and the importance of Chinese teaching have increased continuously. In order to assist the Chinese learners in composing Chinese characters and increase their learning efficiency, Chinese components teaching method is adopted. The learners can find the clues to both the pronunciations and the meanings of Chinese characters from Chinese components, and semantic-phonetic compounds and their phonetic components are exactly proper to be the object. There are 80.5% semantic-phonetic compounds in the 7000 common Chinese characters, and most of them are formed with one semantic component and one phonetic component. For the purpose of emphasizing the clues to the pronunciations of Chinese characters, multiple-level association rule mining was applied to discover the hierarchical pronunciation rules of semantic-phonetic compounds. This approach found the key factors which have the strong connection with the pronunciations of semantic-phonetic compounds. With the knowledge of Chinese linguistics, we constructed the hierarchical Chinese pronunciation structure. The hierarchical pronunciation rules are the overview of the pronunciations of semantic-phonetic compounds and aid both Chinese learning and Chinese researches. Therefore, they can learn the pronunciations of Chinese characters not only in the general aspect but the specific aspect. These rules were represented in visualization and the simple and memorable system was designed to assist both the Chinese literacy teaching and Chinese researches. 關鍵詞:漢語識字教學,形聲字,聲符,多層次關聯式規則探勘,關聯式規則視覺化

برای دانلود متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید

ثبت نام

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

منابع مشابه

華台雙語發音變異性之語音辨識研究及PDA之應用 (The study of pronunciation variations in Mandarin and Taiwanese and its application in PDA) [In Chinese]

本篇論文提出一種方法來有效的處理華台雙語同時存在於同一句話的語音辨識 問題。主要的核心可分為三部分;一.聲學模型:此部分是用一個共同的標音系統,使相同 的發音的標音在不同語言上能夠做語料的分享,而且在語音特徵擷取上也加上聲調的參 數,以減少華字與音節間的混淆。二.發音模型:此部分是結合了以專家知識為主的發音辭 典與實際上語料分析結果而成變異發音,前者是統計了的華台雙語辭典的華字對音節發音 機率,找出一個華字在辭典上所有可能的發音;而後者是將音節的辨識結果做成發音對華 字的混淆機率。第三部份是將華字直接嵌入在語言模型中,作為搜尋的節點。之後用唐詩 300首的實驗,其針對目前台灣地區華台夾雜的語句,以及發音變異性的問題,都能確實降 低一成五到兩成的漢字相對錯誤率。最後將此技術移植到PDA上,也做了相關的應用。

متن کامل

使用關聯法則為主之語言模型於擷取長距離中文文字關聯性 (Association Rule Based Language Models for Discovering Long Distance Dependency in Chinese) [In Chinese]

摘要 本論文提出一種能擷取長距離資訊的語言模型,它可以擷取多詞彙之間的關 聯性,擷取的方式是使用資料探勘中十分流行的 Apriori 演算法,傳統上 n-gram 語言模型只能在 n-gram 視窗內擷取到有限距離的資訊,較長距離的資訊也就因 此而流失,然而這些失去的長距離資訊對於語言模型是十分重要的,所以如何克 服 n-gram 模型缺乏長距離資訊一直是非常熱門的研究課題,觸發序對就是其中 一種有效的方法,其主要功能是在擷取長距離之詞序對資訊,也就是建立起詞與 詞之間的關聯性,然而我們所提出的關聯法則技術能擷取多元詞組間的關聯性, 可以說是進一步改良詞組數並建立更長距離資訊,而實驗結果也顯示本論文方法 比起傳統觸發序對獲得較低的 perplexity,此關聯法則技術也可以有效的與其他 模型調整及模型平滑化的技術結合,在語言模型的效率改善方面能有更良好的效 果,最後本論文也將提出的語...

متن کامل

A Hybrid Approach for Automatic Classification of Chinese Unknown Verbs

本論文合併兩種方法預測未知動詞的詞類。第一種方法為規則法,即從訓練 語料中歸納出未知動詞組成的構詞規律,分成兩個主要的判斷方式:一、依 照未知動詞的組成的關鍵字決定其分類。二、依照未知動詞的構成組合決定 其分類。 關鍵字法首先將動詞依長度分為四組。第一組為二字詞、三字詞、四字詞、 五字以上的詞彙。在對實際語料的觀察下,發現不同詞長的動詞結構相異, 因此將語料依詞長分組。例如:三字詞可訓練出「好」、「出」兩條規則決 定動詞的詞類,其他長度的未知動詞並沒有這兩條規則,另外「化」規則不 適用於二字動詞。 規則法的第二部分為依照構成組合決定其分類。在觀察未知動詞時,發現有 部分未知動詞的組合很具有規律,我們就將訓練語料中未知動詞的組合做個 歸納,得到九種組合。在十次實驗中,規則法可以處理的未知動詞平均約為 23.19%,猜測正確的比例為 91.67%。 二、相似法為利用與未知動詞相似的例子來...

متن کامل

完全基於類神經網路之語音合成系統初步研究 (A Preliminary Study on Fully Neural Network-based Speech Synthesis System) [In Chinese]

A Preliminary Study on Fully Neural Network-based Speech Synthesis System 廖書漢 SHU-HAN Liao ,蔡亞伯 YaBo Chai , 廖元甫 a Yuan-Fu Liao, a 國立台北科技大學電子工程系 [email protected], [email protected], [email protected] 摘要 傳統的語音合成使用先文字分析後語音合成的架構,但是這種兩階段的作法, 通常會有,若前級分析錯誤,就會影響後級合成,且無法挽救的問題。因此,在 本論文中我們希望嘗試把前後級,全部都改成以類神經網路實現,以便將來可以 直接合成一個大的端對端語音合成類神經網路。主要的想法是,直接以字元串為 輸入單位,並盡量用大量未標記語料,進行非監督式類神經網路訓練。我們的系 統包含四個子網路,分...

متن کامل

Semantic Associative Topic Models for Information Retrieval

主題模型(topic model)被廣泛地應用在各種文件建 模以及語音識別、資訊檢索和本文探勘系統中,有 效地擷取文件或字詞的語意和統計資料。大多數主 題模式,例如機率潛在語意分析(probabilistic latent semantic analysis) 和 潛 在 狄 利 克 里 分 配 (latent Dirichlet allocation),主要都透過一組潛藏的主題機 率分布來描述文件與字詞之間的關係,並用以擷取 文件的潛在語意資訊。然而,傳統的主題模型受限 於詞袋(bag-of-words)的假設,其潛藏主題僅能用來 擷取個體詞(individual word)之間的語意資訊。雖然 個體詞可傳達主題信息,但有時會缺乏本文準確的 語意知識,容易造成文件的誤判,降低檢索的品 質。為了改善主題模型的缺點,本論文提出一種新 穎的語意關聯主題模型(semantic associ...

متن کامل

ذخیره در منابع من


  با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید

برای دانلود متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید

ثبت نام

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

عنوان ژورنال:

دوره   شماره 

صفحات  -

تاریخ انتشار 2013